WordStat 内容分析和文本挖掘软件 高度优化的主题建模与因素分析
在 WordStat 2022 中,我们实施了一个新的多线程因素分析例程,比以前的版本快 65 倍。这意味着现在可以在不到一分钟的时间内解决需要一个小时计算的大型问题。我们还能够将因素分析容量增加到 10,000 个单词(之前版本为 3,000 个)。
我们自己的研究工作表明,与依赖 LDA 和神经网络技术的主题建模技术相比,使用因子分析的主题建模产生的主题解决方案更加连贯和多样化(Peladeau & Davoodi,2018 年;Peladeau,2022 年)。它还具有稳定性的额外好处,每次都会产生相同的结果。然而,它的主要不便一直是它的速度和容量。这使我们在 WordStat 8 中实现了一个使用非负矩阵分解(或 NMF)的特殊主题提取例程。这种技术可以更快地产生结果,这些结果与使用因子分析获得的结果非常相似。然而,它的概率实现会导致每次运行的结果略有不同,这让一些研究人员感到有些不安。重要的是要注意,计算机科学中几乎所有其他流行的主题建模技术产生的主题解决方案甚至比我们自定义的 NMF 实现更不稳定。那些寻求最佳和稳定的主题解决方案的人可能会喜欢新的因素分析主题建模例程的速度和容量大大提高。